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(54) Title: METHOD FOR DETECTING SPEECH ACTIVITY 

(54) Titre: PROCEDE DE DETECTION D'ACTIVITE VOCALE 

(57) Abstract 

The invention concerns a method whereby the 
digital speech signal (s) processed by successive frames 
is subjected to noise suppression taking into account 
noise estimations included in the signal, updated for 
each frame based on at least one degree of speech 
activity (7n,i). The method consists in carrying out an 
a priori noise suppression of each frame speech signal 
on the basis of the noise estimations obtained while 
processing at least one previous frame, and analysing 
the energy variations of the signal which has been 
subjected to an a priori noise suppression to detect the 
degree of speech activity of said frame. 

(57) Abrege* 

Le signal de parole numenque (s) trait6 par 
trames successive^ est soumis a un de*bruitage en 
tenant compte d'estimations du bruit compris dans le 
signal, mises a jour pour chaque trame d'une maniere 
dependante d'au moins un degre* d'activite* vocale (7,1,1). 
On procede a un d6bruitage a priori du signal de 
parole de chaque trame sur la base d'estimations du 
bruit obtenues lors du traitement d'au moins une trame 
precfidente, et on analyse les variations d'6nergie du signal d6bruit6 a priori pour detecter le degre" d'activit6 vocale de ladite trame. 
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PRQCEDE DE DETECTION D' ACTIVITE VQCALE 

La presente invention concerne les techniques 
numeriques de traitement de signaux de parole. Elle 
concerne plus particulierement les techniques faisant 
5 appel a une detection d' activite vocale afin d'effectuer 
des traitements differencies selon que le signal supporte 
ou non une activite vocale. 

Les techniques nuia6riques en question relevent de 
domaines varies : codage de la parole pour la transmission 

10 ou le stockage, reconnaissance de la parole, diminution du 
bruit, annulation d'echo... 

Les methodes de detection d' activite vocale ont 
pour principale difficulty la distinction entre 1' activite 
vocale et le bruit qui 1' accompagne . Le recours a une 

15 technique de debruitage classique ne permet pas de traiter 
cette difficulty, puisque ces techniques font elles-memes 
appel a des estimations du bruit qui dependent du degre 
d' activite vocale du signal. 

Un but principal de la presente invention est 

20 d'ameliorer la robustesse au bruit des methodes de 
detection d' activite vocale. 

L r invention propose ainsi un procede de detection 
d' activite vocale dans un signal de parole numerique 
traite par trames successives, dans lequel on soumet le 

25 signal de parole a un debruitage en tenant compte 
d' estimations du bruit compris dans le signal, mises a 
jour pour chaque trame d'une mani£re dependante d' au moins 
un degre d' activity vocale determine pour ladite trame. 
Selonl' invention, on procede a un debruitage a priori du 

30 signal de parole de chaque trame sur la base d' estimations 
du bruit obtenues lors du traitement d' au moins une trame 
precedente, et on analyse les variations d'energie du 
signal debruite a priori pour detecter le degre d' activity 
vocale de ladite trame. 

35 Le fait de pro,c6der a la detection d' activity 

vocale (selon une methode qui peut g£neralement etre toute 
methode connue) sur la base d'un signal debruite a priori 
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ameliore sensiblement les performances de cette detection 
lorsque le bruit environnant est relativement important. 

Dans la suite de la presente description, on 
illustrera le procede de detection d'activite vocale selon 
5 1' invention dans un systeme de debruitage d' un signal de 
parole. On comprendra que ce procede peut trouver des 
applications dans de riombreux autres types de traitement 
numerique de la parole dans lesquels on souhaite disposer 
d'une information sur le degre d'activite vocale du signal 

10 traite : codage, reconnaissance, annulation d' echo . . . 

D' autres particularity et avantages de la 
presente invention ^pparaitront dans la description ci- 
apres d'exemples de realisation non limitatifs, en 
reference aux dessins annexes, dans lesquels : 

15 -la figure 1 est un schema synoptique d'un 

systeme de debruitage mettant en ceuvre la presente 
invention ; 

- les figures 2 et 3 sont des organigrammes de 
procedures utilisees par un detecteur d'activite vocale du 

20 systeme de la figure 1 ; 

- la figure 4 est un diagramme representant les 
etats d'un automate de detection d'activite vocale ; 

- la figure 5 est un graphique illustrant les 
variations d'un degre d'activite vocale ; 

25 -la figure 6 est un schema synoptique d'un module 

de surestimation du bruit du systeme de la figure 1 ; 

- la figure 7 est un graphique illustrant le 
calcul d'une courbe de masquage ; et 

la figure 8 est un graphique illustrant 
30 1' exploitation des courbes de masquage dans le systeme de 
la figure 1. 

Le systeme de debruitage represents sur la figure 
1 traite un signal numerique de parole s. Un module de 
fenetrage 10 met ce signal s sous forme de fenetres ou 
35 trames successives, constitutes chacune d'un nombre N 
d' echantillons de signal numerique. De fagon classique, 
ces trames peuvent presenter des recouvrements mutuels. 
Dans la suite de la presente description, on considerera, 
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sans que ceci soit limitatif, que les trames sont 
constitutes de N-256 echantillons a une frequence 
d'echantillonnage F e de 8 kHz, avec une ponderation de 

Hamming dans chaque fenetre, et des recouvrements de 50% 

5 entre fenetres consecutives . 

La trame de signal est transformee dans le domaine 

frequentiel par un module 11 appliquant un algorithme 

classique de transformee de Fourier rapide (TFR) pour 

calculer le module du spectre du signal. Le module 11 

.0 delivre alors un ensemble de N=256 composantes 

frequentielles du signal de parole, notees S ou n 

n, x 

designe le numero de la trame courante, et f une frequence 
du spectre discret. Du fait des proprietes des signaux 
numeriques dans le domaine frequentiel, seuls les N/2=128 

.5 premiers echantillons sont utilises. 

Pour calculer les estimations du bruit contenu 
dans le signal s, on n'utilise pas la resolution 
frequentielle disponible en sortie de la transformee de 
Fourier rapide, mais une resolution plus faible, 

0 determines par un nombre I de bandes de frequences 
couvrant la bande [0,F e /2] du signal. Chaque bande i 
(l<i<I) s'etend entre une frequence inferieure f(i-l) e t 
une frequence superieure f(i), avec f(0)=0, et f(I)=F /2. 
Ce decoupage en bandes de frequences peut e t re uni forme 

5 (f (i) -f (i-l)=F e /2l) . II peut egalement etre non uniforme 
(par exemple selon une echelle de barks) . Un module 12 
calcule les moyennes respectives des composantes 
spectrales s n# f du signal de parole par bandes, par 
exemple par une ponderation uniforme telle que : 

° = f(i) - jf(i-D r ^ U) 

fe[f(i-l),fU)[ 

Ce moyennage diminue les fluctuations entre les 
bandes en moyennant les contributions du bruit dans ces 
bandes, ce qui diminuera la variance de l'estimateur de 
bruit. En outre, ce moyennage permet une forte diminution 
5 de la complexity du systeme. 



WEST 



10 



WO 99/1 4737 PCT/FR98/01 979 

- 4 - 

Les composantes spectrales moyennees S . sont 

n./ 1 

adressees a un module 15 de detection d'activite vocale et 
a ujtl module 16 d' estimation du bruit. Ces deux modules 15, 
16 fonctionnent conjointement , en ce sens que des degres 
5 d'activite vocale mesures pour les differentes bandes 

par le module 15 sont utilises par le module 16 pour 
estimer l'energie a long terme du bruit dans les 
differentes bandes, tandis que ces estimations a long 
terme 3 n#i sont utilisees par le module 15 pour proceder a 
un debruitage a priori du signal de parole dans les 
differentes bandes pour determiner les degres d'activite 
vocale y . . 

Le fonctionnement des modules 15 et 16 peut. 
correspondre aux organigrammes representee sur les figures 
15 2 et 3. 

Aux etapes 17 a 20, le module 15 procede au 
debruitage a priori du signal de parole dans les 
differentes bandes i pour la trame de signal n. Ce 
debruitage a priori est effectue selon un processus 
classique de soustraction spectrale non lineaire a partir 
d' estimations du bruit obtenues lors d'une ou plusieurs 
trames precedentes. A l'etape 17, l e module 15 calcule, 
aver, la resolution des bandes i, la reponse en frequence 
Hp n,i du filtre de debruitage a priori, selon la formule : 

„ S n,i ~ a n-xl,i- B n-xl,i 
Hp n,i = ~ (2) 

ou t1 et t2 sont des retards exprimes en nombre de trames 
(xl>l, x2>0), et a' nfi est un coefficient de surestimation 
du bruit dont la determination sera expliquee plus loin. 
Le retard xl peut etre fixe (par exemple xl=l) ou variable. 
II est d'autant plus faible qu'on est confiant dans la 
detection d'activite vocale. 

Aux etapes 18 a 20, les composantes spectrales 



20 



25 



30 
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Ep n ■ sont calculees selon : 

^Pn4 = ma 4^n,i- S n,i ' Pp i-Vtl,i} < 3 > 

ou (3p^ est un coefficient de plancher proche de 0, servant 

classiquement a eviter que le spectre du signal debruite 
5 prenne des valeurs negatives ou trop faibles qui 
provoqueraient un bruit musical. 

Les etapes 17 a 20 consistent done essentiellement 
a soustraire du spectre du signal une estimation, majoree 

par le coefficient ot' n __ xl ^ , du spectre du bruit estime a 

10 priori. 

A 1'etape 21, le module 15 calcule l'energie du 
signal debruite a priori dans les differentes bandes i 

A, o 

pour la trame n : = Sp^i . II calcule aussi une 

moyenne globale E n ^ 0 de l'energie du signal debruite a 

15 priori, par une somme des energies par bande E„ . , 

n, l 

ponderee par les largeurs de ces bandes. Dans les 
notations ci-dessous, 1'indice i=0 sera utilise pour 
designer la bande globale du signal. 

Aux etapes 22 et 23, le module 15 calcule, pour 
20 chaque bande i (0<i<I), une grandeur AE^ . representant 
la variation a court terme de l'energie du signal debruite 
dans la bande i, ainsi qu'une valeur a long terme E U/ j_ de 
l'energie du signal debruite dans la bande i. La grandeur 
AE n,i P eut & tre calculee par une formule simplifiee de 

£ n-4,i + E n-3,i " E n-l,i ~ E n,i 



25 derivation : A£„ ,* 



Quant a 



10 

l'energie a long terme E n/ j_ , elle peut etre calculee a 
l'aide d' un facteur d'oubli Bl tel que 0<B1<1, a savoir 
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Apres avoir calcule les energies E n i du signal 
debruite, ses variations a court terme AE^ ■ et ses 

n, x 

valeu'rs a long terme E n/ j_ de la maniere indiquee sur la 

figure 2, le module 15 calcule, pour chaque bande i 

5 (0<i<l), une valeur p i representative de 1'evolution de 

1'energie du signal debruite. Ce calcul est effectue aux 
etapes 25 a 36 de la figure 3, executees pour chaque bande 
i entre i=0 et i=I . Ce calcul fait appel a un estimateur a 
long terme de 1'enveloppe du bruit ba^, a un estimateur 

10 interne bi^ et a un compteur de trames bruitees b^. 

A l'etape 25, la grandeur AE n ^ ^ est comparee a un 
seuil el. Si le seuil el n'est pas atteint, le compteur b^ 

est increments d'une unite a l'etape 26. A l'etape 27, 
1' estimateur a long terme ba^ est compare a la valeur de 

15 1'energie lissee E Ufi . si ba i >E rt/i/ 1' estimateur ba i est 

pris egal a la valeur lissee E n ^ a l'etape 28, et le 

compteur b^ est remis a zero. La grandeur p i , qui est 

prise egale au rapport ba^E^ (etape 36), est alors 
egale a 1. 

20 Si l'etape 27 montre que ba i <E n ^, le compteur b i 

est compare a une valeur limite bmax a l'etape 29. Si 
b^bmax, le signal est considere comme trop stationnaire 

pour supporter de l'activite vocale. L'etape 28 precitee, 
qui revient a considerer que la trame ne comporte que du 
25 bruit, est alors executee. Si b^bmax a l'etape 29, 

1' estimateur interne bij_ est calcule a l'etape 33 selon : 

= (1-Bm) . E nf ± + Bm . ba± { 4 ) 

Dans cette formule, Bm represente un coefficient de raise a 
jour compris entre 0,90 et 1. Sa valeur differe selon 
30 l'etat d'un automate de detection d' activite vocale 
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(etapes 30 a 32). Cet etat 5 n-1 est celui determine lors 
du traitement de la trame precedente. Si 1' automate est 
dans' un etat de detection de parole (5 n _ 1 =2 a 1'etape 30), 

le coefficient Bm prend une valeur Bmp tres proche de 1 
5 pour que 1'estimateur du bruit soit tres faiblement mis a 
jour en presence de parole. Dans le cas contraire, le 
coefficient Bm prend une valeur Bms plus faible, pour 
permettre une mise a jour plus significative de 
1'estimateur de bruit en phase de silence. A 1'etape 34, 
0 l'ecart ba^b^ entre 1'estimateur a long terme et 

1'estimateur interne du bruit est compare a un seuil e2 . 
Si le seuil e2 n'est pas atteint, 1'estimateur a long 
terme ba^ est mis a jour avec la valeur de 1'estimateur 
interne bi i a 1'etape 35. Sinon, 1'estimateur a long terme 
5 ba i reste inchang<§. On evite ainsi que de brutales 

variations dues a un signal de parole conduisent a une 
mise a jour de 1'estimateur de bruit. 

Apres avoir obtenu les grandeurs p^, le module 15 

procede aux decisions d'activite vocale a 1'etape 37. Le 
0 module 15 met d' abord a jour l'etat de 1' automate de 
detection selon la grandeur p Q calculee pour 1' ensemble de 

la bande du signal. Le nouvel etat 5 n de 1' automate depend 
de l'etat precedent 5 nwl et de p Q , de la maniere 
representee sur la figure 4. 
5 • Quatre etats sont possibles : 8=0 detecte le 

silence, ou absence de parole ; 8=2 detecte la presence 
d'une activite vocale ; et les etats 8=1 et 5=3 sont des 
etats intermediaires de montee et de descente. Lorsque 
1' automate est dans l'etat de silence (S n „ 1 =0) / il y reste 

0 si p Q ne depasse pas un premier seuil SE1, et il passe 
dans l'etat de montee dans le cas contraire. Dans l'etat 
de montee (Sn-i^)' revient dans l'etat de silence si 
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Pq est plus petit que le seuil SE1, il passe dans l'etat 
de parole si p 0 est plus grand qu'un second seuil SE2 plus 
grand que le seuil SE1, et il reste dans l'etat de montee 
si SE1< pQ<SE2. Lorsque 1' automate est dans l'etat de 

5 parole (8 n-1 -2) , il y reste si p Q depasse un troisieme 

seuil SE3 plus petit que le seuil SE2, et il passe dans 
l'etat de descente dans le cas contraire. Dans l'etat de 
descente ^1=3)/ 1' automate revient dans l'etat de 

parole si p Q est plus grand que le seuil SE2, il revient 
10 dans l'etat de silence si p Q est en dega d'un quatrieme 
seuil SE4 plus petit que le seuil SE2 , et il reste dans 
l'etat de descente si SE4^Pq^SE2. 

A l'&tape 37, le module 15 calcule 6galement les 
degres d'activite vocale y n . dans chaque bande i>l. Ce 

15 degre Y n j_ est de preference un parametre non binaire, 
c'est-a-dire que la fonction Y n j^gfPi) est une fonction 
variant continument entre 0 et 1 en fonction des valeurs 
prises par la grandeur p i . Cette fonction a par exemple 

1' allure representee sur la figure 5. 
20 Le module 16 calcule les estimations du bruit par 

bande, qui seront utilisees dans le processus de 
debruitage, en utilisant les valeurs successives des 
composantes S i et des degres d'activite vocale y 

Ceci correspond aux etapes 40 a 42 de la figure 3. A 
25 l'etape 40, on determine si 1' automate de detection 
d'activite vocale vient de passer de l'etat de montee a 
l'etat de parole. Dans 1' affirmative, les deux dernieres 
estimations B n -i f i et ^n-2,i P r ecedemment calculees pour 
chaque bande i>l sont corrigees conformement a la valeur 
30 de l f estimation precedente ^ n ^2,i ' Cette correction est 
effectuee pour tenir compte du fait que, dans la phase de 
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montee (8-1), les estimations a long terme de l'energie du 
bruit dans le processus de detection d' activite vocale 
(etapes 30 a 33) ont pu etre calculees comme si le signal 
ne comportait que du bruit (Bm=Bms) , de sorte qu'elles 
risquent d'etre entachees d'erreur. 

A l'etape 42, le module 16 met a jour les 
estimations du bruit par bande selon les formules : 

V = Wl,i + < 1 ~V- 5 n / i (5) 

*n,i = y n,i- Vl,i + a-Y^i) • * n ,i < 6 > 
ou X B designe un facteur d'oubli tel que 0<X B <1. La 
formule (6) met en evidence la prise en compte du degre 

d' activite vocale non binaire y„ ■ . 

'n, i 

Comme indique precedemment, les estimations a long 
terme du bruit font l'objet d'une surestimation, par 

15 un module 4 5 (figure 1), avant de proceder au debruitage 
par soustraction spectrale non lineaire. Le module 45 

calcule le coefficient de surestimation a ni precedemment 
evoque, ainsi qu'une estimation majoree B ^ qui correspond 



10 



20 



essentiellement a a' y . B n . 

L' organisation du module de surestimation 45 est 
representee sur la figure 6. L' estimation majoree b' ■ est 
obtenue en combinant 1' estimation a long terme B n v et une 

mesure AB™^ de la variability de la composante du bruit 

dans la bande i autour de son estimation a long terme. 
25 Dans l'exemple considere, cette combinaison est, pour 
l'essentiel, une simple somme realisee par un additionneur 
46. Ce pourrait egalement etre une somme ponderee. 

Le coefficient de surestimation est egal au 

rapport entre la somme B ± + AB^* delivree par 
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1' additionneur 46 et 1' estimation a long terme retardee 

^n-x3 i (diviseur 47), plafonne a une valeur limite ot max/ 

par exemple cx max =4 (bloc 48) . Le retard x3 sert a corriger 

le cas echeant, dans les phases de montee (5=1), la valeur 

t 

du coefficient de surestimation a Df j t avant que les 

estimations a long terme aient ete corrigees par les 
etapes 40 et 41 de la figure 3 (par exemple x3=3) . 

L' estimation majoree B n ^ est finalement prise 

egale a CL n ^ B n -x3,i (multiplieur 49). 

La mesure AB^ 5 de la variability du bruit reflete 

la variance de l'estimateur de bruit- Elle est obtenue en 

fonction des valeurs de S n ^ ^ et de B n ^ calculees pour un 

certain nombre de trames precedentes sur lesquelles le 
signal de parole ne presente pas d'activite vocale dans la 



15 bande i. C est une fonction des ecarts 



s n-k f i " B n-k f i 



calcules pour un nombre K de trames de silence (n-k<n) . 
Dans 1' exemple represents, cette fonction est simplement 
le maximum (bloc 50) . Pour chaque trame n, le degre 
d' activite vocale est compare a un seuiT (bloc 51) 



20 pour decider si l'ecart 



s n f i B n,i 



, calcule en 52-53, doit 



ou non etre charge dans une file d'attente 54 de K 
emplacements organisee en mode premier entre-premier sorti 
(FIFO). Si y n ^ i ne depasse pas le seuil (qui peut etre 

egal a 0 si la fonction g() a la forme de la figure 5), la 
FIFO 54 n'est pas alimentee, tandis qu'elle l'est dans le 
cas contraire. La valeur maximale contenue dans la FIFO 54 

est alors fournie comme mesure de variability AS™** . 

1 1, j. 

La mesure de variability AB™^ peut, en variante, 

etre obtenue en fonction des valeurs S_ f (et non S„ ■ ) et 

n, i n, i 
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Bni* On precede alors de la raeme maniere, sauf que la FI 



FO 



54 cpntient non pas 



s n-k,i ~ B n-k,i 



pour chacune des bandes 



i, mais plutot max 

fe[f[±-D ,f(i)[ 



s n-k,f ~ B n-k,i 



Grace aux estimations independantes des 
5 f luctuarions a long terme du bruit E„ et de sa 

variability a court terme A£™ a f, l'estimateur majore s' • 

procure une excellente robustesse aux bruits musicaux du 
procede de debruitage. 

Une premiere phase de la soustraction spectrale 
10 est realisee par le module 55 represents sur la figure 1. 
Cette phase fournit, avec la resolution des bandes i 

(l<i^I), la reponse en frequence ffl d' un premier filtre 

de debruitage, en fonction des composantes S„ - et B n ■ et 

n / x iifj, 

i 

des coefficients de surestimation cc^ . Ce calcul peut 
15 etre effectue pour chaque bande i selon la formule : 



maxi 

H l = L_ : (7) 

5 n-x4,i 

ou x4 est un retard entier determine tel que t4£0 (par 

exemple x4=0) . Dans l'expression (7), le coefficient (3^ 

represente, comme le coefficient fip^ de la formule (3), un 

20 plancher servant classiquement a eviter les valeurs 
negatives ou trop faibles du signal debruite. 

De fagon connue (EP-A-0 534 837), le coefficient 

de surestimation a n ^ pourrait etre remplace dans la 
formule (7) par un autre coefficient egal a une fonction 
25 de a n ^ et d'une estimation du rapport signal-sur-bruit 
(par exemple s n j/ ^ ' cette fonction 6tant decroissante 
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selon la valeur estimee du rapport signal-sur-bruit . Cette 

fonction est alors egale a ct n ^ pour les valeurs les plus 

faibles du rapport signal-sur-bruit. En effet, lorsque le 
signal est tres bruite, il n'est a priori pas utile de 

5 diminuer le facteur de surestimation. Avantageusement, 
cette fonction decroit vers zero pour les valeurs les plus 
elevees du rapport signal/bruit. Ceci permet de proteger 
les zones les plus energetiques du spectre, ou le signal 
de parole est le plus signif icatif , la quantite soustraite 

.0 du signal tendant alors vers zero. 

Cette strategie peut etre affinee en l'appliquant 
de maniere selective aux harmoniques de la frequence 
tonale (« pitch ») du signal de parole lorsque celui-ci 
presente une activite vocale. 

5 Ainsi, dans la realisation representee sur la 

figure 1, une seconde phase de debruitage est realisee par 
un module 5 6 de protection des harmoniques. Ce module 
calcule, avec la resolution de la transformee de Fourier, 

la reponse en frequence ^nf d f un second filtre de 

-i i 

0 debruitage en fonction des parametres H„ 7 * , a_ ■ , B n .j, 5 , 
S n ^ ^ et de la frequence tonale fp=F e /Tp calculee en dehors 
des phases de silence par un module d' analyse harmonique 
57. En phase de silence (5 n =0) , le module 56 n'est pas en 

service, c'est-a-dire que H^ f = H^^ pour chaque 

A 

5 frequence f d' une bande i. Le module 57 peut appliquer 
toute methode connue d' analyse du signal de parole de la 
trame pour determiner la periode T^, exprimee comme un 

nombre entier ou f ractionnaire d' echantillons, par exemple 
une methode de prediction lineaire. 
0 La protection apportee par le module 56 peut 

consister a effectuer, pour chaque frequence f appartenant 
a une bande i : 
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H n,f = 1 



SI 



S n,i ~ a n,i' h n,± > Pi- *n,i 



H n,f ~ H n,f 



et 3t| entier / 
sinon 



< Af I 2 



(8) 



(9) 



Af=F e /N represente la resolution spectrale de la 

trans formee de Fourier. Lorsque tfj; =1, la quantite 
soustraite de la composante S f sera nulle, Dans ce 

5 calcul, les coefficients de plancher $\ (par exemple 

Pi = Pi 1 expriment le fait que certaines harmoniques de la 
frequence tonale f peuvent etre masquees par du bruit, de 
sorte qu' il n'est pas utile de les proteger. 

Cette strategie de protection est de preference 
10 appliquee pour chacune des frequences les plus proches des 
harmoniques de f , c'est-a-dire pour r\ entier quelconque. 

Si on designe par 8f la resolution f requentielle 

avec laquelle le module d' analyse 57 produit la frequence 
tonale estimee f , c'est-^-dire que la frequence tonale 

15 reelle est comprise entre f -Sf 12 et f +8f n /2, alors 

l'ecart entre la T]-i6me harmonique de la frequence tonale 
reelle est son estimation Tjxf (condition (9)) peut aller 

jusqu'a ±T]x5fp/2. Pour les valeurs elevees de t|, cet ecart 

peut etre superieur a la demi-resolution spectrale Af/2 de 
20 la transformee de Fourier. Pour tenir compte de cette 
incertitude et garantir la bonne protection des 
harmoniques de la frequence tonale reelle, on peut 
proteger chacune des frequences de l'intervalle 

"H^fp- "nxSip/2 / T\*f p + Tix5r p /2 , c'est-a-dire remplacer la 
25 condition (9) ci-dessus par : 

3x\ entier / f - r\. f p | < [r\.5f p + Afj/2 (9') 
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Cette fagon de proceder (condition (9')) presente un 
interet particulier lorsque les valeurs de r\ peuvent etre 
grandes, notamment dans le cas ou le procede est utilise 
dans un systdme a bande 61argie. 
5 Pour chaque frequence protegee, la reponse en 

frequence corrigee H^f peut etre egale a 1 comme indique 

ci-dessus, ce qui correspond a la soustraction d'une 
quantite nulle dans le cadre de la soustraction spectrale, 
c'est-a-dire a une protection complete de la frequence en 
10 question. Plus generalement, cette reponse en frequence 

corrigee H^ f pourrait etre prise egale a une valeur 

comprise entre 1 et H^f selon le degre de protection 

souhaite, ce qui correspond a la soustraction d'une 
quantite inferieure a celle qui serait soustraite si la 
15 frequence en question n'etait pas protegee. 

Les composantes spectrales s\^ f d'un signal 
debruite sont calculees par un multiplieur 58 : 

S lf = H l,f S n,f (10) 
Ce signal f est fourni a un module 60 qui 

20 calcule, pour chaque trame n, une courbe de masquage en 
appliquant un module psychoacoustique de perception 
auditive par l'oreille humaine. 

Le phenom£ne de masquage est un principe connu du 
fonctionnement de l'oreille humaine. Lorsque deux 

25 frequences sont entendues simultanement, il est possible 
que 1'une des deux ne soit plus audible. On dit alors 
qu'elle est masquee. 

II existe differentes methodes pour calculer des 
courbes de masquage. On peut par exemple utiliser celle 

30 developpee par J.D. Johnston («Transform Coding of Audio 
Signals Using Perceptual Noise Criteria », IEEE Journal on 
Selected Area in Communications, Vol. 6, No. 2, 
fevrier 1988). Dans cette methode, on travaille dans 
l'echelle f requentielle des barks. La courbe de masquage 
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est vue comme la convolution de la fonction d' etalement 
spectral de la membrane basilaire dans le domaine bark 
avec le signal excitateur, constitue dans la presente 

application par le signal S^ f . La fonction d' etalement 

5 spectral peut etre modelisee de la maniere representee sur 
la fi'gure 7. Pour chaque bande de bark, on calcule la 
contribution des bandes inferieures et superieures 
convoluees par la fonction d' etalement de la membrane 
basilaire : 

q-1 S^ gf q s£ , 

10 C ^ = q l Q ( 10 10/10)(^') + g J g+1 (l0 25/X0)(^) (U) 

ou les indices q et q' designent les bandes de bark 
(0<q,q'<Q), et S n ^ represente la moyenne des composantes 

2 

s n,f du signal excitateur debruite pour les frequences 

discretes f appartenant a la bande de bark q' . 
15 Le seuil de masquage est obtenu par le module 

60 pour chaque bande de bark q, selon la formule : 

M n,q = C n,q /R q <12) 

ou depend du caractere plus ou moins voise du signal. 

De fagon connue, une forme possible de R est : 
20 10.1og 1Q (R q ) = (A+q).x + B. (1~X) (13) 

avec A=14,5 et B=5,5. % designe un degre de voisement du 
signal de parole, variant entre zero (pas de voisement) et 
1 (signal fortement voise) . Le paramdtre x peut etre de la 



25 



forme connue : 

. [ SFM ) 

ou SFM represente, en decibels, le rapport entre la 
moyenne arithmetique et la moyenne geometrique de 
l'energie des bandes de bark, et =-60 dB. 

Le systeme de debruitage comporte encore un module 
30 62 qui corrige la reponse en frequence du filtre de 
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debruitage, en fonction de la courbe de masquage M_ _ 

n, g 

calculee par le module 60 et des estimations majorees B_ 

calculees par le module 45. Le module 62 decide du niveau 
de debruitage qui doit reellement §tre atteint. 
5 En comparant l'enveloppe de 1' estimation majoree 

du bruit avec l'enveloppe formee par les seuils de 
masquage M n ^ q , on decide de ne debruiter le signal que 

dans la mesure ou 1' estimation majoree b' • depasse la 

courbe de masquage. Ceci evite de supprimer inutilement du 
10 bruit masque par de la parole. 

La nouvelle reponse H^ ft pour une frequence f 

appartenant a la bande i definie par le module 12 et a la 
bande de bark q, depend ainsi de 1'ecart relatif entre 

1' estimation majoree B n ^ de la composante spectrale 

15 correspondante du bruit et la courbe de masquage M n , de 



la maniere suivante 



r3 



H^ f = HZr). max 



*nd ~ M n,q n 



B n,i 



(14) 



En d'autres termes, la quantite soustraite d'une 
composante spectrale f , dans le processus de 

20 soustraction spectrale ayant la reponse f requentielle 

H n,f ' est sensiblement egale au minimum entre d'une part 

la quantite soustraite de cette composante spectrale dans 
le processus de soustraction spectrale ayant la reponse 

f requentielle H^ f , et d' autre part la fraction de 

25 1' estimation majoree B ± de la composante spectrale 

correspondante du bruit qui, le cas echeant, depasse la 
courbe de masquage M_ 

II, q 

La figure 8 illustre le principe de la correction 
appliquee par le module 62. Elle montre schematiquement un 
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exemple de courbe de masquage M„ _ calculee sur la base 

n, q 

2 

des composantes spectrales S n ^ ^ du signal debruite, ainsi 

que 1' estimation majoree B ^ du spectre du bruit. La 

quantite finalement soustraite des composantes f sera 

n, j_ 

5 celle representee par les zones hachurees, c' est-a-dire 

limitee a la fraction de 1' estimation majoree B n des 

composantes spectrales du bruit qui depasse la courbe de 
masquage . 

Cette soustraction est effectuee en multipliant la 

0 reponse f requentielle H^ f du filtre de debruitage par les 

composantes spectrales S n ^ f du signal de parole 

(multiplieur 64). Un module 65 reconstruit alors le signal 
debruite dans le domaine temporel, en operant la 
transformee de Fourier rapide inverse (TFRI) inverse des 

5 echantillons de frequence S n f delivres par le multiplieur 

64. Pour chaque trame, seuls les N/2=128 premiers 
echantillons du signal produit par le module 65 sont 

delivres comme signal debruite final s 3 , apres 
reconstruction par addition-recouvrement avec les N/2=128 
0 derniers echantillons de la trame.. precedents (module 66) . 
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REVEND ICATIONS 

1. Procede de detection d'activite vocale dans un 

signal de parole numerique (s) traite par trames 
successives, dans lequel on soumet le signal de parole a 

5 un debruitage en tenant compte d' estimations du bruit 
compris dans le signal, raises a jour pour chaque trame 
d'une maniere dependante d' au moins un degre d'activite 
vocale (y nii ) determine pour ladite trame, caracterise en 
ce qu'cn procede a un debruitage a priori du signal de 

0 parole de chaque trame sur la base d' estimations du bruit 

{a n-zl,i- B n~xl,i ] °btenues lors du traitement d'au moins une 
trame precedente, et on analyse les variations d' energie 
du signal debruite a priori ( Ep n4 ) pour detecter le degre 
d'activite vocale de ladite trame. 

5 2. Procede selon la revendication 1, dans lequel le 

degre d'activite vocale (y n/i ) est un parametre non 
binaire . 

3. Procede selon la revendication 2, dans lequel le 
degre d'activite vocale (y^) est une fonction, variant 

0 continument entre 0 et 1 . 

4. Procede selon l'une quelconque des revendications 
precedentes, dans lequel les estimations du bruit sont 
obtenues dans differentes bandes f requentielles du signal, 
le debruitage a priori est effectue bande par bande, et il 

> est determine un degre d'activite vocale (y n ^ poU r 

chaque bande . 

5. Procede selon l'une quelconque des revendications 
precedentes, dans lequel on obtient une estimation du 
bruit B nfl pour la trame n dans une bande de frequences i 
sous la forme : 
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avec 5 n/i = X B .B n _ w + tt-X B ) . 

ou X B est un facteur d'oubli compris entre 0 et 1, y_ . est 

le degre d'activite vocale determine pour la trame n dans 
5 la bande de frequences i, et ■ est une moyenne de 

1' amplitude du spectre du signal de parole de la trame n 
sur la bande i. 

6. Procede selon la revendication 5, dans lequel le 
signal debruite a priori Ep n/ j_ relativement a une trame n 

10 et a une bande de frequences i est de la forme : 

Ep n/1 = , (J Pi . £ n _ xl/i } 

, s n,i ' a n-xl,i' B n-xl,i 

ou Hp n ^ - , T i es t un entier au moins 

^n-T2,i 

egal a 1, x2 est un entier au moins egal a 0, a' Tl - est 

n XX/J. 

un coefficient de surestimation determine pour la trame 
15 n-xl et la bande i, et pp i est un coefficient positif. 

7. Procede selon l'une quelconque des revendications 
precedentes, "dans lequel on calcule une estimation a long 
terme (£ n/i ) de l'energie du signal debruite a priori 

( E P n ,i ) ' et on compare cette estimation a long terme a une 

20 estimation instantanee (ba) de cette energie, calculee sur 
la trame en cours, pour obtenir le degre d'activite vocale 
(Y n i) de ladite trame. 
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